期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于博弈论及Q学习的多Agent协作追捕算法
郑延斌, 樊文鑫, 韩梦云, 陶雪丽
计算机应用    2020, 40 (6): 1613-1620.   DOI: 10.11772/j.issn.1001-9081.2019101783
摘要482)      PDF (899KB)(731)    收藏
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。
参考文献 | 相关文章 | 多维度评价
2. 基于对策论的团队计算机生成角色任务分配方法
郑延斌 陶雪丽
计算机应用    2013, 33 (03): 793-795.   DOI: 10.3724/SP.J.1087.2013.00793
摘要737)      PDF (475KB)(566)    收藏
针对带有时间约束的、可以动态加入到环境中的复杂任务,建立了一种基于对策论的任务分配模型,并给出了一种任务分配方法。该方法中计算机生成角色(CGA)根据自身掌握的局部信息进行行为选择,并使用虚拟行动方法确保CGA快速学习到一个严格纯策略Nash平衡。仿真实验结果表明该方法是合理的,能够有效地解决动态任务的分配问题。
参考文献 | 相关文章 | 多维度评价